Modelo estocástico de traducción basado en N-gramas de tuplas bilinges y combinación log-lineal de características

نویسندگان

  • José B. Mariño
  • Rafael E. Banchs
  • Josep Maria Crego
  • Adrià de Gispert
  • Patrik Lambert
  • José A. R. Fonollosa
چکیده

This communication introduces a stochastic machine translation system based on Ngram modelling of the joint probability of bilingual texts. The basic unit of this model is called a tuple and consists of a pair of both source (to be translated) language and target language (translation) word-strings. Translation is driven by a log-linear combination of the N-gram model probability and other features, according to the maximum entropy language modelling approach. The translation performance is evaluated by means of a speech-to-speech translation tasks: translation from Spanish to English (and viceversa) of European Parliament speeches. The system reaches a state-of-art performance.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Estudio Bidireccional de un Sistema de RI Multilingüe Basado en Traducción de n-Gramas

Resumen Continuando nuestra investigación sobre el empleo de ngramas de caracteres como unidad de traducción en sistemas de RI Multilingüe, este art́ıculo analiza el comportamiento de nuestra solución en direcciones inversas de traducción a partir de sendos experimentos paralelos con consultas en inglés sobre textos en español y viceversa. Lo positivo de los resultados corrobora la validez de nu...

متن کامل

Clasificación de servicios Web mediante una red neuronal artificial usando n-gramas de palabras

Resumen. Este artículo presenta un enfoque basado en n-gramas de palabras para la clasificación automática de servicios Web utilizando una red neuronal artificial de tipo perceptrón multicapa. Los servicios Web contienen información de gran utilidad para lograr una clasificación basada en la funcionalidad del mismo. El enfoque se basa en n-gramas de palabras extraídas de la descripción del serv...

متن کامل

Sistema de reconocimiento multilenguaje del habla

Resumen. Este trabajo se comienza con la presentación de una serie de art́ıculos relacionados con el Reconocimiento Automático del Habla. Se realiza un análisis de cada uno de ellos donde se obtienen datos relevantes y los que serán de gran ayuda para desarrollar la propuesta multilenguaje de un sistema de reconocimiento del habla aqúı descrito. Existen varias técnicas que son aplicadas para log...

متن کامل

Variabilidad, Trazabilidad y Líneas de Productos: una Propuesta basada en UML y Clases Parciales

Uno de los problemas clave en el desarrollo de una línea de productos software es la representación y gestión de la parte común y variable de la misma. La forma habitual de definir ambos aspectos es mediante modelos de características o features que además permiten seleccionar la configuración de cada aplicación concreta dentro de la línea de productos. Sin embargo la trazabilidad entre los mod...

متن کامل

Comparación y combinación de los sistemas de traducción automática basados en n-gramas y en sintaxis

In this paper we shall compare two approaches to machine translation: the Syntax Augmented Machine Translation system (SAMT), which is a syntaxdriven translation system, underlain by phrase-based model, and the n-gram-based Statistical Machine Translation (SMT), in which a translation process is based on statistical modeling of the bilingual context. We provide a step-by-step comparison of the ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 35  شماره 

صفحات  -

تاریخ انتشار 2005